Projet Chamois / Master 2 ECOMONT

Ce projet est réalisé dans le cadre du Master 2 ECOMONT et porte sur l’étude statistique de la fécondité d’une population de femelles chamois.

1 Chargement des librairies


library(tidyverse)
library(corrplot)
library(lmerTest)
library(ade4)
library(splines)
library(plotly)
library(DT)
library(Hmisc)
library(kableExtra)
library(knitr)
library(MASS)

2 Import et description du jeu de données


2.1 Import des données

Tableau 1: Affichage du jeu de données.

2.2 Description des données

Le jeu de données, auquel ont été retirées les observations aberrantes (cf 2.2.2), est constitué de 7 variables et 1219 observations.
Chaque observation correspond à l’information de fécondité associée à une femelle chamois et relative à une année donnée. Le jeu de données résume les suivis réalisés entre 1992 et 2017 sur 26 années.
D’après l’histogramme présentant le nombre d’individus suivis chaque année (cf 2.2.3), les années entre 2005 et 2007 sont les années pour lesquelles le nombre de chamois suivis a été le plus important, atteignant 97 individus en 2007. 208 femelles chamois ont été suivies au total. Le nombre d’années de suivi varie selon les femelles entre 1 et 16 années (cf histogramme nombre d’années de suivi 2.2.4).


2.2.1 Résumé des données

## 'data.frame':    1328 obs. of  7 variables:
##  $ id    : Factor w/ 217 levels "101","105","106",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ year  : int  1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 ...
##  $ fec   : int  1 1 1 1 1 1 1 0 0 0 ...
##  $ coh   : int  1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 ...
##  $ anmark: int  1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 ...
##  $ pds   : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ ydth  : int  2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 ...
## cham 
## 
##  7  Variables      1328  Observations
## --------------------------------------------------------------------------------
## id 
##        n  missing distinct 
##     1328        0      217 
## 
## lowest : 101 105 106 107 108, highest: 82  87  9   93  R1 
## --------------------------------------------------------------------------------
## year 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1328        0       27    0.998     2006    6.831     1995     1997 
##      .25      .50      .75      .90      .95 
##     2001     2006     2010     2014     2015 
## 
## lowest : 1991 1992 1993 1994 1995, highest: 2013 2014 2015 2016 2017
## --------------------------------------------------------------------------------
## fec 
##        n  missing distinct     Info      Sum     Mean      Gmd 
##     1328        0        2    0.716      806   0.6069   0.4775 
## 
## --------------------------------------------------------------------------------
## coh 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1328        0       33    0.997     1996     7.75     1985     1987 
##      .25      .50      .75      .90      .95 
##     1991     1997     2001     2005     2007 
## 
## lowest : 1977 1978 1980 1982 1983, highest: 2007 2009 2010 2011 2014
## --------------------------------------------------------------------------------
## anmark 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1328        0       24    0.996     2002    6.288     1993     1994 
##      .25      .50      .75      .90      .95 
##     1998     2002     2006     2009     2011 
## 
## lowest : 1991 1992 1993 1994 1995, highest: 2010 2011 2012 2014 2015
## --------------------------------------------------------------------------------
## pds 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1100      228       92    0.999    19.89     5.25     11.5     12.0 
##      .25      .50      .75      .90      .95 
##     16.9     21.1     23.3     25.0     26.0 
## 
## lowest :  7.8 10.5 11.0 11.1 11.3, highest: 26.5 26.8 27.0 28.3 28.4
## --------------------------------------------------------------------------------
## ydth 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      920      408       22    0.977     2006    4.908     1998     2000 
##      .25      .50      .75      .90      .95 
##     2003     2007     2008     2012     2014 
## 
## lowest : 1994 1996 1997 1998 1999, highest: 2012 2013 2014 2015 2016
## --------------------------------------------------------------------------------

2.2.2 Elimination des données aberrantes

Les chamois observés après leur mort ou avant leur naissance sont retirés du jeu de données. De même, les observations réalisées avant l’année de marquage sont supprimées.

cham <- cham %>% 
  filter(year<=ydth | is.na(cham$ydth)) %>%
  filter(year>=coh)%>%
  filter(anmark>=coh)%>%
  filter(anmark <= year)

Seulement 1219 observations sont conservées après ce premier tri.

2.2.3 Histogramme nombre d’individus par année

Figure 1 : Nombre de femelles chamois suivies chaque année.

Figure 1 : Nombre de femelles chamois suivies chaque année.

2.2.4 Histogramme nombre d’années de suivi

Figure 2: Nombre d'années de suivi des femelles.

Figure 2: Nombre d’années de suivi des femelles.

2.3 Création des variables âge (age),longévité (long) et âge au moment du marquage (agemark)

cham2 <- cham %>%
  summarise(cham, age= year-coh, long=ydth-coh, agemark=anmark-coh)

3 Question 1 : Lien fécondité annuelle et âge des femelles


3.1 Représentation graphique des données

3.1.1 Représentation par classe d’âge

Figure 3: Représentation de la fécondité moyenne de la population par classe d’âge

3.1.2 Représentation sans grouper par classe d’âge

Figure 4: Fécondité annuelle des individus en fonction de l'âgeFigure 4: Fécondité annuelle des individus en fonction de l'âge

Figure 4: Fécondité annuelle des individus en fonction de l’âge

Graphiquement, une augmentation de l’âge des chamois semble engendrer une diminution de la fécondité annuelle de la population de chamois (cf figure 3). Il est important de confirmer cette tendance sans réaliser de moyenne par classe d’âge pour vérifier qu’il n’y a pas de tendances masquées par le fait de réaliser une somme des fécondités des individus. La figure 4 semble appuyer cette tendance pour les âges élevés avec un nombre plus important d’observations d’absence de mise bas (fécondité = 0) pour des âges élevés.

3.2 Analyse statistique du lien entre fécondité annuelle et âge des femelles

3.2.1 Modèles de régression linéaire généralisé avec effets aléatoires


3.2.1.1 Modèle 1 glm1

On réalise l’analyse statistique sur les données brutes et non sur les données groupées par classe d’âge pour éviter de masquer la variabilité de la fécondité annuelle entre individus.
Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale.
La variable “id” est désignée comme variable aléatoire pour tenir compte du fait que les observations sont répétées sur les mêmes individus sur plusieurs années.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ age + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1601.2   1616.5   -797.6   1595.2     1216 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.8934 -1.1311  0.6397  0.7592  1.0459 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.2843   0.5332  
## Number of obs: 1219, groups:  id, 208
## 
## Fixed effects:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.88399    0.17400   5.081 3.76e-07 ***
## age         -0.03981    0.01688  -2.358   0.0184 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##     (Intr)
## age -0.905

Interprétation des coefficients:

L’AIC de ce modèle est de 1601. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée.
Pour pouvoir interpréter les coefficients, il faut prendre en compte la fonction de lien. En calculant l’inverse de la fonction logit, on obtient le coefficient qui permet d’exprimer la fécondité annuelle en fonction de l’âge. Ce coefficient = (1/exp(x)-1)*100 car l’odd-ratio est < 1. Il est 4.06% moins vraisemblable que les chamois aient un petit lorsque leur âge augmente d’un an (p value<0.02).

3.2.1.2 Modèle 2 glm2

On ajoute la variable “year” comme variable aléatoire au modèle glm1 pour prendre en compte le fait que les individus sont suivis sur les mêmes années.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ age + (1 | id) + (1 | year)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1583.0   1603.4   -787.5   1575.0     1215 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.1300 -1.0339  0.5917  0.7282  1.4224 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3172   0.5632  
##  year   (Intercept) 0.1851   0.4303  
## Number of obs: 1219, groups:  id, 208; year, 26
## 
## Fixed effects:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.97013    0.20191   4.805 1.55e-06 ***
## age         -0.04340    0.01754  -2.474   0.0133 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##     (Intr)
## age -0.811

Interprétation des coefficients:

L’AIC de ce modèle est de 1583. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. En calculant l’inverse de la fonction logit, on obtient le coefficient qui permet d’exprimer la fécondité annuelle en fonction de l’âge. Il est 4.44% moins vraisemblable que les chamois aient un petit lorsque leur âge augmente d’un an (p value<0.02).

L’AIC du modèle glm2 est < AIC du modèle glm1 donc, par la suite, les variables “year” et “id” sont conservées comme variables aléatoires.

3.2.1.3 Modèle 3 glm1q

Un modèle quadratique est testé par la suite pour prendre en compte la tendance de la ligne de régression observée sur les graphiques (via la fonction geom_smooth). Pour appuyer ce choix, sur le graphique qui représente les données groupées par âge, un modèle de type quadratique (courbe noire) est ajoutée et ce modèle semble bien ajusté aux données observées (points bleus)(cf figure 5 ci-dessous).
Figure 5: Ajout du modèle quadratique aux données de fécondité moyenne observées par classe d'âge

Figure 5: Ajout du modèle quadratique aux données de fécondité moyenne observées par classe d’âge

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ age + I(age^2) + (1 | id) + (1 | year)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1496.3   1521.8   -743.2   1486.3     1214 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.5079 -0.8929  0.5018  0.6685  5.2068 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3540   0.5950  
##  year   (Intercept) 0.2566   0.5066  
## Number of obs: 1219, groups:  id, 208; year, 26
## 
## Fixed effects:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -2.005000   0.392488  -5.108 3.25e-07 ***
## age          0.690386   0.086746   7.959 1.74e-15 ***
## I(age^2)    -0.037416   0.004465  -8.381  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##          (Intr) age   
## age      -0.910       
## I(age^2)  0.836 -0.976
## optimizer (Nelder_Mead) convergence code: 0 (OK)
## Model failed to converge with max|grad| = 0.00647378 (tol = 0.002, component 1)
## Model is nearly unidentifiable: very large eigenvalue
##  - Rescale variables?

La variable âge est centrée normée car le modèle n’arrive pas à converger.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ age_scale + I(age_scale^2) + (1 | id) + (1 | year)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1496.3   1521.8   -743.2   1486.3     1214 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.5079 -0.8929  0.5018  0.6685  5.2068 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3540   0.5950  
##  year   (Intercept) 0.2566   0.5066  
## Number of obs: 1219, groups:  id, 208; year, 26
## 
## Fixed effects:
##                 Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     1.179656   0.151563   7.783 7.07e-15 ***
## age_scale      -0.006016   0.074835  -0.080    0.936    
## I(age_scale^2) -0.588891   0.070277  -8.380  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##             (Intr) ag_scl
## age_scale    0.076       
## I(ag_scl^2) -0.485 -0.113

Interprétation des coefficients:

L’AIC de ce modèle est de 1496. Avec ce modèle, la dispersion calculée est de 1.2 donc il n’y a pas de surdispersion importante observée. L’AIC de ce modèle quadratique < l’AIC des modèles glm1 et glm2 donc le modèle quadratique est plus adapté comme attendu graphiquement. Une observation des coefficients associés aux termes âge et âge^2 indique que le terme “âge” n’est pas significatif dans la prédiction de la variable réponse (p value = 0.94) alors que la p value associée au terme “âge^2” < 0.01. La fonction carré est donc testée.

3.2.1.4 Modèle 4 glm1c

Le modèle carré est testé comme expliqué précedemment.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ I(age_scale^2) + (1 | id) + (1 | year)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1494.3   1514.7   -743.2   1486.3     1215 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.5094 -0.8914  0.5025  0.6684  5.1922 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3525   0.5937  
##  year   (Intercept) 0.2567   0.5067  
## Number of obs: 1219, groups:  id, 208; year, 26
## 
## Fixed effects:
##                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     1.18061    0.15108   7.814 5.53e-15 ***
## I(age_scale^2) -0.58955    0.06975  -8.452  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##             (Intr)
## I(ag_scl^2) -0.480

Interprétation des coefficients:

L’AIC de ce modèle est de 1494. Avec ce modèle, la dispersion calculée est 1.2 donc il n’y a pas de surdispersion importante observée. Le modèle étant compliqué, il est difficile d’interpréter les coefficients car il faudrait prendre en compte l’effet de lien logit, le fait que la variable “age” ait été centrée normée et le fait qu’on ait appliqué un carré à la variable explicative. Par contre, on peut conclure que la variable “age_scale^2” a un bien un effet significatif et négatif sur la fécondité annuelle des chamois comme l’indique l’odd-ratio qui est <1 (0.55).

3.2.2 Résumé des résultats

npar AIC BIC logLik deviance Chisq Df Pr(>Chisq)
glm1 3 1601.182 1616.499 -797.5910 1595.182 NA NA NA
glm2 4 1582.963 1603.386 -787.4813 1574.963 20.2192505 1 0.0000069
glm1c 4 1494.319 1514.742 -743.1593 1486.319 88.6440167 0 NA
glm1q 5 1496.312 1521.841 -743.1562 1486.312 0.0062428 1 0.9370238

Le modèle glm1c présente le plus faible AIC et est donc le modèle qui permet la meilleure prédiction de la fécondité annuelle à partir de la variable explicative “âge”. Quelque soient les modèles testés, la variable “âge” a un effet significatif négatif sur la fécondité annuelle des femelles chamois ce qui confirme la tendance observée graphiquement.

4 Question 2 : Variation de la fécondité annuelle en fonction du temps


4.1 Représentation graphique des données

4.1.1 Représentation graphique par année

Figure 6: Fécondité moyenne de la population en fonction des années.

4.1.2 Représentation graphique sans grouper par année

Figure 7: Fécondité annuelle en fonction des années.Figure 7: Fécondité annuelle en fonction des années.

Figure 7: Fécondité annuelle en fonction des années.

Sur le graphique qui représente la fécondité moyenne par année, il faut faire attention à la première valeur en 1992 de 1 qui est la valeur d’un seul individu. Les années 2009 et 2013 présentent également des fécondités moyennes très faibles en comparaison aux autres années mais aucune tendance globale ne semble se dessiner au fil des années.
Sur les graphiques qui représentent les données annuelles, la fécondité annuelle semble présenter une très faible diminution avec des observations associées à l’absence de mises bas plus décalées vers les années élevées.
Cette tendance ne semble pas significative et est peut être due à l’augmentation de l’âge moyen de la population au fil des années.

4.1.3 Variation de l’âge moyen des chamois en fonction des années

Figure 8: Age moyen de la population en fonction des années.

Un simple modèle linéaire est appliqué pour vérifier si l’âge moyen de la population augmente bien avec les années comme ce que laisse pressentir la figure 8.

## 
## Call:
## lm(formula = agemoyen ~ year, data = cham_ans)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.91884 -0.39101  0.08584  0.36430  1.64814 
## 
## Coefficients:
##               Estimate Std. Error t value Pr(>|t|)   
## (Intercept) -125.08560   40.53706  -3.086  0.00506 **
## year           0.06699    0.02022   3.312  0.00292 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7734 on 24 degrees of freedom
## Multiple R-squared:  0.3137, Adjusted R-squared:  0.2851 
## F-statistic: 10.97 on 1 and 24 DF,  p-value: 0.002922

Le modèle linéaire semble valider toutes les hypothèses requises:
- Normalité des résidus validée
- Homoscédasticité des résidus validée
La p value est < 0.05 donc l’effet observé est significatif. Concernant la taille de l’effet observé, l’âge moyen de la population augmente de 1.74 années sur les 26 années d’étude ce qui représente une augmentation de 20% de l’âge par rapport à l’âge moyen de la population toutes années confondues ce qui n’est pas négligeable.

La très faible tendance de diminution de la fécondité annuelle observée graphiquement au cours des années est peut être due à l’augmentation de l’âge moyen de la population.

4.2 Analyse statistique du lien entre fécondité annuelle et années

4.2.1 Modèles de régression linéaire généralisé avec effets aléatoires


Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. La variable “id” est désignée comme variable aléatoire pour tenir compte du fait que les observations sont répétées sur les mêmes individus sur plusieurs années.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ year + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1605.2   1620.5   -799.6   1599.2     1216 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.8267 -1.1356  0.6372  0.7564  1.0624 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.2899   0.5384  
## Number of obs: 1219, groups:  id, 208
## 
## Fixed effects:
##               Estimate Std. Error z value Pr(>|z|)    
## (Intercept) 30.8524212  1.3359013   23.09   <2e-16 ***
## year        -0.0151238  0.0006666  -22.69   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##      (Intr)
## year -0.998
## optimizer (Nelder_Mead) convergence code: 0 (OK)
## Model failed to converge with max|grad| = 0.263077 (tol = 0.002, component 1)
## Model is nearly unidentifiable: very large eigenvalue
##  - Rescale variables?
## Model is nearly unidentifiable: large eigenvalue ratio
##  - Rescale variables?

La variable “year” est centrée normée pour que le modèle puisse converger.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ year_scale + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1605.2   1620.5   -799.6   1599.2     1216 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.8267 -1.1356  0.6372  0.7564  1.0624 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.2899   0.5384  
## Number of obs: 1219, groups:  id, 208
## 
## Fixed effects:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.51559    0.07436   6.934  4.1e-12 ***
## year_scale  -0.08965    0.07129  -1.257    0.209    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##            (Intr)
## year_scale -0.012

Interprétation des coefficients:

L’AIC de ce modèle est de 1605. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. D’après la p-value > 0.1, il n’y a pas d’effets significatifs de la variable “year” sur la fécondité annuelle comme supposé préalablement par les représentations graphiques.

C’est donc la variable “age” qui a un impact sur la fécondité annuelle et non la variable “year”. Pour confirmer ce point, un modèle glm avec effets additifs “age” et “year” est testé.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ year_scale + age_scale + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1602.4   1622.8   -797.2   1594.4     1215 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.9738 -1.1235  0.6354  0.7586  1.0454 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.2823   0.5314  
## Number of obs: 1219, groups:  id, 208
## 
## Fixed effects:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.51609    0.07412   6.963 3.33e-12 ***
## year_scale  -0.06285    0.07181  -0.875   0.3815    
## age_scale   -0.14790    0.06777  -2.182   0.0291 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##            (Intr) yr_scl
## year_scale -0.009       
## age_scale  -0.016 -0.165

L’AIC de ce modèle est de 1602. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. On observe, via ce modèle, l’effet de l’âge (p value < 0.05) et l’absence d’effet des années sur la fécondité annuelle (p value > 0.1) avec un AIC plus faible.

4.2.2 Résumé des résultats

La fécondité annuelle de la population de chamois n’est donc pas impactée significativement par la variation de la taille de la population ou les conditions environnementales sur les 26 années d’étude. La population n’a donc surement pas atteint sa capacité de charge.

5 Question 3 : Lien entre fécondité totale et longévité des animaux


5.1 Représentation graphique des données

5.1.1 Représentation sans prendre en compte le nombre d’années de suivi

Les individus qui ne sont pas morts et dont on ne connait pas la longévité ne sont pas pris en compte pour cette question 3.

Figure 9: Somme des mises bas par individu en fonction de la longévité

La figure 9 ne représente pas la fécondité totale des individus (= totale des mises bas sur toute la vie d’un individu) mais seulement la somme des mises bas sur les années de suivi car les individus ne sont pas suivis toute la durée de leur vie .

5.1.2 Prise en compte du biais apporté par le nombre d’années de suivi

5.1.2.1 Présentation de la problématique rencontrée

Tous les chamois n’ont pas n’ont pas été suivis le même nombre d’année parce que la longévité varie selon les individus mais également parce que les individus n’ont pas été marqués dès la naissance.

Figure 10: Répartition de la population en fonction de l'âge de marquage

Figure 10: Répartition de la population en fonction de l’âge de marquage

Ainsi, le nombre d’années de suivi n’est pas égal à la longévité des femelles chamois.

Figure 11: Lien entre le nombre d’années de suivi et la longévité.

Or, on s’attend à ce que le nombre d’années de suivi ait un impact sur la somme des mises bas des chamois.

Figure 12: Somme des mises bas en fonction du nombre d'années de suivi

Figure 12: Somme des mises bas en fonction du nombre d’années de suivi

Comme attendu, la somme des mises bas augmente avec le nombre d’années de suivi. Or, il est difficile de savoir si la période plus longue de suivi est due au fait que l’individu a été marqué précocement ou que l’individu a vécu plus longtemps.
Pour pouvoir répondre à la question initiale, qui consiste à vérifier s’il y a un lien entre la fécondité totale et la longévité, il faut pouvoir comparer des individus suivis sur un maximum d’années de vie comparable entre individus.

5.1.2.2 Solutions proposées

5.1.2.2.1 Solution 1

L’une des solutions consiste à sélectionner une sous partie de la population marquée précocement au même age pour que l’individu ait été suivi une grande partie de sa vie.
Malheureusement, la figure 10 montre qu’il n’y a pas une année de marquage pour laquelle on obtient un échantillon significatif de la population (n>30) pour pouvoir réaliser une analyse statistique.

5.1.2.2.2 Solution 2

Une autre solution consiste à sélectionner une sous partie de la population suivie sur au moins un certain pourcentage de leur vie (ratio anneetot/longévité). La variable “year” n’a pas d’impact sur la fécondité annuelle des chamois donc le fait que les chamois aient été suivis pendant des périodes différentes n’engendre pas de biais supplémentaire.
Deux sous échantillons de la population sont sélectionnés en utilisant les arguments suivants:
-Taille échantillon > 30 individus
-Individus au moins suivis sur 60% de leur vie (60 et 70% de leur vie)

Figure 13: Répartition des âges de marquage des deux échantillons de population sélectionnés (ratio suivi > 70% à gauche et 60% à droite).Figure 13: Répartition des âges de marquage des deux échantillons de population sélectionnés (ratio suivi > 70% à gauche et 60% à droite).

Figure 13: Répartition des âges de marquage des deux échantillons de population sélectionnés (ratio suivi > 70% à gauche et 60% à droite).

5.1.3 Représentation graphique des deux sous-populations

La corrélation entre la fécondité totale et la longévité est maintenant vérifiée graphiquement pour les deux sous populations sélectionnées.

Figure 14: Fécondité totale en fonction de la longévité pour les individus suivis sur 70% ou 60% de leur vie.Figure 14: Fécondité totale en fonction de la longévité pour les individus suivis sur 70% ou 60% de leur vie.

Figure 14: Fécondité totale en fonction de la longévité pour les individus suivis sur 70% ou 60% de leur vie.

Une corrélation positive est observée pour les deux sous populations sélectionnées.

5.2 Analyse statistique du lien entre fécondité totale et longévité

5.2.1 Modèles de régression lineaire


5.2.1.1 Modèle appliqué à la sous population suivie plus de 70%

Un modèle linéaire est appliqué pour les individus sélectionnés en vérifiant au préalable que la fécondité totale suit une loi normale.

Figure 15: Normalité de la fécondité totale de la sous population 1.

Figure 15: Normalité de la fécondité totale de la sous population 1.

La normalité de la variable est vérifiée donc un modèle linéaire est testé.

## 
## Call:
## lm(formula = feconditetotale ~ long, data = cham_long70)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.8092 -1.0853  0.1385  1.4126  3.1908 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  -4.5842     1.2771  -3.589  0.00103 ** 
## long          0.8996     0.1090   8.256 1.24e-09 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.955 on 34 degrees of freedom
## Multiple R-squared:  0.6672, Adjusted R-squared:  0.6574 
## F-statistic: 68.16 on 1 and 34 DF,  p-value: 1.236e-09

L’analyse de la sortie du modèle est réalisée dans la sous-partie “Résultats”.

5.2.1.2 Modèle appliqué à la sous population suivie plus de 60%

Un modèle linéaire est appliqué pour les individus sélectionnés en vérifiant au préalable que la fécondité totale suit une loi normale.

Figure 16: Normalité de la fécondité totale de la sous population 2.

Figure 16: Normalité de la fécondité totale de la sous population 2.

La normalité de la variable est vérifiée donc un modèle linéaire est testé.

## 
## Call:
## lm(formula = feconditetotale ~ long, data = cham_long60)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.4364 -1.2538  0.0636  1.3005  4.0243 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -3.12906    0.93821  -3.335  0.00161 ** 
## long         0.75655    0.07755   9.756 3.67e-13 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.855 on 50 degrees of freedom
## Multiple R-squared:  0.6556, Adjusted R-squared:  0.6487 
## F-statistic: 95.17 on 1 and 50 DF,  p-value: 3.672e-13

L’analyse de la sortie du modèle est réalisée dans la sous-partie “Résultats”.

5.2.1.3 Résultats

Les deux modèles linéaires valident toutes les hypothèses requises:
-Normalité des résidus validée
-Homoscédasticité des résidus validée

Le modèle appliqué aux individus suivis sur au moins 60% de leur vie indique un effet significatif de la longévité (p value < 0.01) sur la fécondité totale avec une augmentation de 0.76 individus par point de longévité supplémentaire (R2>0.65).
Le modèle appliqué aux individus suivis sur au moins 70% de leur vie indique un effet significatif de la longévité (p value < 0.01) sur la fécondité totale avec une augmentation de 0.90 individus par point de longévité supplémentaire (R2>0.66).
En utilisant deux sous échantillons de la population pour prendre en compte le fait que la plupart des individus sont suivis sur une petite partie de leur vie seulement et qu’il est donc difficile d’avoir accès à leur fécondité totale, on observe un effet significatif de la variable “longévité” sur la fécondité totale des chamois.
Ainsi, plus les chamois vivent longtemps, plus ils ont une chance d’avoir des petits et ce malgré l’impact de la variable “age” sur la fécondité annuelle.

6 Question 4: Lien entre fécondité annuelle et longévité des animaux


6.1 Représentation graphique des données

6.1.1 Représentation par classe de longévité

Figure 17: Représentation de la fécondité moyenne de la population par classe de longévité

6.1.2 Représentation sans grouper par classe de longévité

Figure 18: Fécondité annuelle en fonction de la longévitéFigure 18: Fécondité annuelle en fonction de la longévité

Figure 18: Fécondité annuelle en fonction de la longévité

Graphiquement, la longévité ne semble pas impacter la fécondité annuelle. Plus d’observations correspondant à l’absence de fécondité sont cependant observées pour des valeurs de longévité très élevées. Cette observation est peut être due au fait que, en raison de l’impact négatif de l’âge sur la fécondité annuelle, on observe plus d’observations de fécondité=0 pour des longévités élevées car les observations associées à des âges élevés et donc plutôt à des fécondités =0 sont alors plus importantes.

6.2 Analyse statistique du lien entre fécondité annuelle et longévité des femelles

6.2.1 Modèles de régression lineaire généralisé avec effets aléatoires


6.2.1.1 Premier modèle

Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. Les variables “id” et “year” sont désignées comme variables aléatoires pour tenir compte du fait que les observations sont répetées sur les mêmes individus sur plusieurs années.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ long + (1 | id) + (1 | year)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1095.7   1114.6   -543.8   1087.7      827 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.9453 -1.0366  0.6092  0.7325  1.1869 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.43475  0.6594  
##  year   (Intercept) 0.04156  0.2039  
## Number of obs: 831, groups:  id, 155; year, 25
## 
## Fixed effects:
##              Estimate Std. Error z value Pr(>|z|)
## (Intercept)  0.514760   0.336411   1.530    0.126
## long        -0.001207   0.024977  -0.048    0.961
## 
## Correlation of Fixed Effects:
##      (Intr)
## long -0.946

Interprétation des coefficients:

L’AIC de ce modèle = 1096. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. Avec ce modèle, la p value associé à l’impact de la variable “longévité” sur la fécondité annuelle est de 0.96 donc l’effet de la longévité sur la variable réponse n’est pas significatif.

6.2.1.2 Second modèle

Dans le second modèle, on ajoute la variable “age” comme variable explicative pour prendre en compte le fait que l’âge a un effet négatif sur la fécondité annuelle et peut masquer l’effet de la variable longévité.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ long + age + (1 | id) + (1 | year)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1074.2   1097.8   -532.1   1064.2      826 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.7797 -1.0072  0.5581  0.7662  1.2064 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.386743 0.62189 
##  year   (Intercept) 0.005599 0.07483 
## Number of obs: 831, groups:  id, 155; year, 25
## 
## Fixed effects:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.41539    0.32244   1.288 0.197658    
## long         0.11497    0.03425   3.357 0.000789 ***
## age         -0.14143    0.02970  -4.761 1.92e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##      (Intr) long  
## long -0.701       
## age   0.037 -0.706

L’AIC de ce modèle est de 1074. Avec ce modèle, la dispersion calculée est de 1.3 donc il n’y a pas de surdispersion importante observée. L’AIC de ce modèle 2 < l’AIC du modèle 1 donc ce modèle permet de mieux expliquer la variance des données.

En prenant en compte l’effet additif des variables “âge” et “longévité” sur la fécondité annuelle, on obtient des effets contraires associés avec des p value < 0.01.

Il est 15.19% moins vraisemblable que les chamois aient un petit lorsque leur âge augmente d’un an (p value<0.01) et il est 1.12% plus vraisemblable que les chamois aient un petit lorsque leur longévité augmente d’un an (p value<0.01). La taille de l’effet associé avec la variable “long” est faible.

6.2.2 Résumé des résultats

En prenant en compte les deux variables “âge” et “fécondité”, l’effet de la variable longévité peut être estimé plus justement: la longévité aurait un effet positif très faible mais associé à une p-value < 0.1 sur la fécondité annuelle. Ainsi, une forte valeur sélective globale permet de sélectionner les chamois qui vivent plus longtemps et qui conservent une fécondité annuelle importante et ont ainsi plus de petits au cours de leur vie (cf question 3) malgré le coût de la reproduction.

7 Question 5a: Lien entre fécondite totale et poids


7.1 Représentation graphique des données

7.1.1 Vérification de la comparabilité des poids selon les âges de capture et élimination des valeurs non comparables

Figure 19: Poids des chamois en fonction de l'âge de marquage

Figure 19: Poids des chamois en fonction de l’âge de marquage

Les poids mesurés avant 4 ans semblent éloignés de la moyenne puis les poids se stabilisent. Afin d’étudier l’impact des poids sur la fécondité totale, les individus marqués avant 4 ans sont exclus.

7.1.2 Représentation graphique pour les individus sélectionnés

Figure 20: Fécondité totale en fonction du poids

Le graphique ci-dessous est difficilement interprétable car on se heurte une fois de plus au problème associé avec la variable “fécondité totale” qui ne correspond pas à la fécondité des individus durant toute leur vie.

Le fait d’avoir dû retirer les individus pesés avant 4 ans avec des poids peu comparables diminue la taille de la population exploitable qui présente des ratios élevés nombre années suivi/longévité.

7.1.3 Analyse statistique du lien entre fécondité totale et poids des femelles

7.1.3.1 Prise en compte du biais apporté par le nombre d’années de suivi

Figure 21: Ratio années de suivi/longévité des femelles sélectionnées.

Figure 21: Ratio années de suivi/longévité des femelles sélectionnées.

Pour avoir un échantillon d’au moins 30 individus, il faut descendre à un ratio années de suivi/longévité< 0.4 ce qui est beaucoup trop faible pour avoir une représentation fiable de la fécondité totale.
Etant donné qu’on ne peut avoir accès à la variable fécondité totale pour cette question sur un échantillon significatif, l’effet du poids sur la fécondité totale ne peut être évalué.

7.1.3.2 Modèles de régression lineaire généralisé avec effets aléatoires

L’impact du poids sur la fécondité annuelle est tout de même testé avec un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. Les variable “id” et “year” sont utilisées comme variables aléatoires.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ pds + (1 | id) + (1 | year)
##    Data: cham2_tri
## 
##      AIC      BIC   logLik deviance df.resid 
##    768.8    786.2   -380.4    760.8      578 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.7883 -1.1124  0.6442  0.7416  1.4241 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.09131  0.3022  
##  year   (Intercept) 0.29407  0.5423  
## Number of obs: 582, groups:  id, 115; year, 26
## 
## Fixed effects:
##             Estimate Std. Error z value Pr(>|z|)
## (Intercept)  0.16810    1.00244   0.168    0.867
## pds          0.01829    0.04353   0.420    0.674
## 
## Correlation of Fixed Effects:
##     (Intr)
## pds -0.989

Interprétation des coefficients:

L’AIC de ce modèle est de 769. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion importante observée. La p value associée à l’effet “poids” sur la fécondité annuelle est >0.1 et la taille de l’effet est faible (1.02% plus vraisemblable que les chamois aient un petit lorsque leur poids augmente d’un kg).

7.1.3.3 Résumé des résultats.

Le poids n’a donc pas d’impact significatif sur la fécondité annuelle des chamois.

8 Question 5b: Lien entre longévité et poids


8.1 Représentation graphique des données

8.1.1 Représentation graphique de la longévité en fonction du poids

Figure 22: Longévité des chamois en fonction du poids.

Il semble exister une relation positive entre le poids des femelles et leur longévité.

8.2 Analyse statistique du lien entre longévité et poids des femelles

8.2.1 Modèles de régression linéaire

La variable longévité semble présenter une distribution normale donc on applique un modèle linéaire lm.

## 
## Call:
## lm(formula = long ~ pds, data = cham_pds)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.6973 -2.2532  0.2628  2.3085  7.7089 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.33010    1.66882   1.995   0.0482 *  
## pds          0.39844    0.07789   5.116 1.19e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.475 on 121 degrees of freedom
##   (50 observations effacées parce que manquantes)
## Multiple R-squared:  0.1778, Adjusted R-squared:  0.171 
## F-statistic: 26.17 on 1 and 121 DF,  p-value: 1.189e-06

Le modèle linéaire semble valider toutes les hypothèses requises:
-Normalité des résidus validée
-Homoscédasticité des résidus validée

8.2.2 Résumé des résultats

D’après le résumé du modèle, la longévité augmente de 0.39 années lorsque le poids augmente d’un kg (p value < 0.01). Le poids semble donc avoir un impact sur la longévité.

9 Conclusions

L’utilisation de différents modèles nous ont permis d’étudier l’impact de plusieurs variables sur la fécondité annuelle et totale d’une population de chamois.
Ainsi, la fécondité annuelle des chamois diminue avec l’âge des femelles et augmente très légèrement avec la longévité. Le poids et les années n’ont en revanche pas d’effets significatifs sur la fécondité annuelle. Ces observations nous permettent de conclure que la population n’a surement pas atteint sa capacité de charge.
La fécondité totale augmente avec la longévité. Plus les chamois vivent longtemps, plus les femelles ont le temps d’avoir des petits malgré la diminution de la fécondité annuelle avec l’âge.
Des poids plus élevés sont associés à des longévités plus élevées. Nous n’avons pas pu analyser l’impact des poids sur la fécondité totale de par l’absence de données suffisantes.
Pour faciliter les analyses statistiques de cette population de chamois, il serait important de suivre les chamois dès leur plus jeune âge. De plus, si les chamois sont marqués avant 3 ans, une mesure additionnelle de poids après leur 4 ans permettrait d’analyser la variable poids sur des poids stabilisés.